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基于 字 簇 的 多 模型 中 文 分 词 方法 研究 


李 对 红 ， 王 裴 岩 '， 张 桂平 ， 张 少 阳 
(沈阳 航空 航天 大 学 人 机 智能 研究 中 心 , 沈阳 110136) 


摘 要 : 字 标 注 分 词 方法 是 当前 中 文 分 词 领 域 中 一 种 较为 有 效 的 分 词 方 法 。 但 由 于 中 文 汉字 本 身 带 有 语义 信息 ， 不 
同 字 在 不 同 语 境 中 其 含义 与 作用 不 同 ， 导 致 每 个 字 的 构 词 规律 存在 差异 。 针 对 这 一 问题 ， 提 出 了 一 种 基于 字 纺 的 多 
模型 中 文 分 词 方法 。 该 方法 首先 对 每 个 字 进 行 建 模 ， 然 后 对 学 习 出 的 模型 参数 进行 聚 类 分 析 形 成 字 徐 ， 最 后 基于 字 
徐 重 新 训练 模型 参数 。 实 验 结果 表明 ， 该 方法 能 够 有 效 地 发 现 具有 相同 或 相近 构 词 规律 的 字 化 ， 很 好 地 区 别 了 同类 
特征 对 不 同 字 的 作用 程度 。 
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Multi-model Chinese word segmentation method based on character clusters 


Li Duihong, Wang Peiyan!, Zhang Guiping, Zhang Shaoyang 
(Human-Computer Intelligence Research Center, Shenyang Aerospace University, Shenyang 110136, China) 


Abstract: Character-based tagging method is currently an effective method in Chinese word segmentation. However, the 
Chinese characters had their own semantic information, different characters had different meanings and functions in 
different contexts, which lead to different correlations with context, resulting in the difference of word-formation rules for 
each word. To solve this problem, this paper proposed a multi-model method based on character cluster. Firstly, the method 
separately constructed a model for each word, then clustered the model parameters to form character clusters , and finally 
retrained the model parameters based on the character clusters. Experimental results show that this method can effectively 
find character clusters with the same or similar word-formation rules, and distinguish the effect of similar features for 
different characters. 
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UR 于 分 词 任务 1。 

vim 无 论 是 传统 的 机 器 学 习 模型 还 是 神经 网 络 模型 ， 它 们 都 
词 是 能 够 独立 运用 的 最 小 语言 单元 。 与 英语 和 其 他 西方 。 是 着 眼 于 句子 中 的 每 一 个 字 ( 或 是 符号 )， 根 据 当前 待 标注 字 

语言 有 所 不 同 ， 中 文 以 字 为 基本 书写 单位 ， 词 语 之 间 没有 明 的 上 下 文 环境 判断 其 词 位 信息 ， 以 此 作为 分 词 的 标记 。 该 类 

显 的 分 界 符 加 以 区 分 ， 如 果 不 进 行 分 词 ， 计 算 机 就 无 法 得 知 。 ”方法 基于 训练 语 料 建立 单一 模型 参数 ， 考 虑 的 是 上 下 文 环境 


中 文 词 的 确切 边界 ， 从 而 很 难 理解 文本 中 所 包含 的 语义 信息 对 所 有 字 的 全 局 综合 作用 ， 即 假设 相同 上 下 文 环 境 对 不 同 待 

中 。 因 此 ， 中 文 分 词 是 自然 语言 处 理 中 的 一 项 基础 性 工作 ， 标注 字 的 影响 相同 ， 学 习 出 字 构 词 的 一 般 性 规律 。 然 而 ， 

其 在 命名 实体 识别 、 文 本 自动 分 类 、 机 器 翻译 等 领域 都 有 着 于 中 文 汉字 本 身 带 有 语义 信息 ， 造 成 了 每 个 字 的 构 词 规律 存 

举足轻重 的 地 位 ， 其 性 能 的 好 坏 直 接 影响 后 续 的 自然 语言 处 在 差异 ， 即 使 相同 的 字 作 为 待 标注 字 的 上 下 文 特征 时 其 含 》 

理 任 务 。 与 作用 也 存在 较 大 的 差异 02431， 造 成 与 待 标注 字 的 结合 紧密 
中 文 分 词 方法 中 ， 有 指导 的 字 标 注 分 词 方法 外 具有 较 好 程度 发 生变 化 。 以 如 下 例子 进行 说 明 : 

的 分 词 效 果 。 该 方法 将 分 词 过 程 抽象 为 序列 标注 任务 ， 采 用 a) 建立 /稳定 /和 睦 / 的 /两 岸 /关系 /。/ 

适合 于 序列 标注 的 机 器 学 习 模型 进行 建 模 。 其 中 ， 应 用 比较 b) 营造 /了 /民主 /和 谐 /的 /气氛 /。/ 

广泛 的 序列 标注 模型 主要 有 最 大 炉 马 尔 可 夫 模 型 (maximum c) 党 中 央 / 坚 持 / 领 导 / 和 /党 /的 /十 五 大 /精神 /。/ 

entropy Markov model，MEMMDBI、 隐 马尔 可 夫 模 型 hidden 上 述 的 三 个 例句 , 当前 待 标注 字 分 别 为 “ 睦 ”“ 谐 和 “党 ” 

Markov model, HMM) P3% fF PE PLI (conditional random — 时， 前 一 个 特征 都 为 “和 ” 然而 ， 相 同 的 特征 对 待 标注 字 的 

field，CRE) 模 型 5 141。 然而 ， 这 些 模型 分 词 效果 的 好 坏 很 大 程 影响 却 不 同 ， 即 与 待 标注 字 的 结合 紧密 程度 不 同 。 从 例子 中 


ini 


B£ E SEIT RRAERUTXETERIDEEO. MEFR, MARERA E 可 以 看 出 ， 一 、 二 句 中 的 “和 ”与 待 标注 字 “ 睦 ”、“ 谐 ”的 
勃发 展 ， 循 环 神经 网 络 (recurrent neural networks，RNN)、 长 结合 紧密 程度 相同 ， 而 第 三 句 中 的 “和 ”与 待 标注 字 “ 党 ” 
短期 记忆 (long-short term memory，LSTM) 神 经 网 络 以 及 它们 的 结合 紧密 程度 与 前 两 例句 不 同 。 因 此 ， 假 设 上 下 文 环境 对 
的 变 体 等 适用 于 序列 标注 任务 的 神经 网 络 模型 被 广泛 地 应 用 待 标 注 字 的 影响 相同 显然 存在 问题 ,针对 这 一 问题 , 文献 [14] 
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李 对 红 ， 等 : 基于 字 纵 的 多 模型 中 文 分 词 方法 研究 


提出 了 基于 字 的 多 模型 中 文 分 词 方法 ， 该 方法 最 大 的 特点 是 


对 每 个 字 建 立 单独 的 模型 参数 ， 有 效 地 区 分 了 相同 特征 对 不 


同 待 标注 字 的 影响 ， 学 习 出 了 字 构 词 的 特殊 虱 
该 方法 也 存在 不 足 ， 


律 相 同 或 相近 ， 
练 样本 较 少 ， 


也 会 造成 未 登录 词 召 区 


规律 。 然 而 ， 


尺 管 针对 每 个 字 


势必 造成 模型 参数 的 元 余 。 


1 练 得 到 的 模型 参数 可 
以 很 好 地 反映 该 字 的 构 词 规律 ， 但 是 ， 存 在 某 些 字 的 构 词 规 


本 文 对 基于 字 的 多 模型 中 文 分 词 方法 59 进行 改进 


率 的 降低 。 


并 且 部 分 字 的 训 


， 提 出 


了 一 种 基于 字 簇 的 多 模型 分 词 方法 。 该 方法 对 基于 字 的 多 模 


型 分 词 方法 学 习 出 的 模型 参数 进行 聚 类 分 析 ， 将 具有 相同 或 
相近 构 词 规律 的 字 聚 合 形 成 字 簇 ， 并 基 ] 
数 。 该 方法 与 单 模型 方法 相 比 ， 有 效 地 
与 多 模型 方法 相 
PKU 语 料 与 MSR 语 料 上 得 到 了 验证 。 


< 


于 此 字 复 训练 模型 参 


是 高 了 词 表 词 召 


可 率 ， 


比 ， 有 效 地 提高 了 未 


1 ”基于 字 簇 的 多 模型 分 词 方法 


1.1 


模型 训练 流程 


有 相同 或 相近 构 词 规律 的 字 聚 合 
上 述 的 类 簇 重新 训练 得 到 模型 参数 。 其 


登录 词 召 回 率 ， 


本 文 提出 了 一 种 基于 字 簇 的 多 模型 分 词 方 法 ， 该 方法 首 
先 基于 字 的 多 模型 分 词 方 法 训练 得 到 每 个 字 的 模 
的 模型 参数 代表 了 该 字 的 构 词 规 得 
数 进行 聚 类 分 析 ， 发 现 模型 参数 之 间 内 在 的 分 布 结构 ， 将 有 具 


ERTIK. wa EF 


并 在 


型 参数 。 字 


EE。 接 下 来 对 上 述 的 模型 参 


体 训练 流程 包括 三 


个 部 分 : 字模 型 参数 获取 、 字 构 词 规 律 分 布 结构 发 现 、 模 型 
再 训练 。 如 图 1 所 示 。 
/模型 本 训练 
TEE BsE 国 国 国 国 S C j 
D ER J | 国 | 
OARE VE 
| "HEBBNEH BENE m | 
wi w2 w3 w4 w5 w6 w7 Was Wn2 Wn-1 Wh 上 一 一 一 一 一 T 
[| SUR Concatenation | 
字 构 词 规律 分 布 结构 发 现 EB | 
| cluster2 | | 
| cluster à e © cluster k | Look-up 表 | 
| (e ee ` 9/ oo = i | | 
mE j b 输入 
eo /cluster k-1 : 
图 1 基于 字 簇 的 多 模型 分 词 方 法 模型 训练 流程 
Fig. 1 The training process of multi-model segmentation method 
based on character clusters 
1) 字 模型 参数 获取 


参数 由 d 维 向 量 表示 ， 
2) 字 构 词 规律 分 布 结构 发 现 


本 文 所 提 方 法 的 关键 之 处 在 于 妇 


间 的 相关 性 ， 学 习 多 个 字 之 间 


次 聚 类 算法 对 
类 艇 ,其 中 每 一 


类 艇 表示 该 类 字 具 有 相 


体 男 见 LA 小 节 。 


3) 模 型 再 
该 模块 根 和 


训练 样本 ， 输 入 到 模型 结构 


1.2 小 节 。 
1.2 ”模型 结构 


中 文 分 词 过 程 通常 被 视 为 字符 级 别 的 序列 标注 问题 ， 


| 练 
居 上 述 生 成 的 字 的 类 艇 如 


代表 了 该 字 的 构 词 规律 。 


< 有 的 构 词 规 得 


本 文 基于 字 的 多 模型 分 词 方法 训练 得 到 模型 参数 ， 各 个 
模型 参数 之 间 相 互 独立 ， 有 效 地 学 习 出 每 个 字 的 构 词 规律 。 
图 1 显示 了 该 方法 训练 得 到 的 n 个 字 的 模型 参数 ， 每 个 模型 


上 述 得 到 的 模型 参数 进行 聚 类 分 析 ， 形 成 字 的 
同 或 相似 的 构 词 规律 。 


EE 新 在 训练 语 料 中 抽取 


[ 何 发 现 上 述 模型 参数 之 
EE。 本 文采 用 层 


my 


进行 训练 。 具 体 模型 结构 另 见 


> 


此 ， 可 以 将 分 词 过 程 视 为 对 


学 习 过 程 。 本 文 借鉴 


Sigmoid 函数 。 与 基于 字 的 多 模型 分 词 方法 
的 分 词 方法 基于 字 簇 进行 建 模 。 分 词 时 


型 参数 进行 决策 。 为 了 降低 
用 相同 的 结构 。 具 体 模型 结 
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字符 串 中 的 每 个 字符 标注 的 机 器 


Ma Jianqiang 等 人 05 的 ) 
构 分 为 3 个 部 分 ， 分 别 为 Look-up 表 、 


思想 


DVG 9 


Concatenation 函数 、 


将 模型 结 


问题 的 复杂 性 ， 
构 如 图 


所 不 同 ， 本 文 


， 根 据 对 应 的 字 簇 模 
每 个 类 艇 模型 采 


[一 元 特征 | 定 和 睦 的 两 


BA 


IL 


m 


二 ES 


QUPD 


nn 


图 2 
Fig. 2 


模型 结构 


Model structure 


a)Look-up 表 , 记 录 了 特征 与 实数 向 量 之 间 的 映射 关系 ， 
每 个 不 同 特征 t 的 Embedding 记 


又 称 为 特征 的 Embedding. 


Embed(t)- R" , P N 表示 实数 向 量 也 


料 中 提取 的 。 


维度 。 特 征 是 从 训练 语 


b)Concatenation 函数 。 为 了 预测 待 标注 字符 的 标记 状 


态 , 需要 将 其 对 应 的 特征 Embedding 连接 成 一 个 单一 的 向 量 ， 
K 是 用 于 描述 待 标注 字 
度 。 


作为 模型 的 输入 , 记 为 aeR 


符 的 特征 数量 ，N 为 特征 Embedding 

c)Sigmoid 函数 。 模 型 结构 中 采用 的 激活 
中 ，a 为 输入 的 特征 Embedding， 
w 为 特征 权重 ，(a,w) 表示 两 个 向 量 的 点 积 。 


函数 ,定义 如 式 (1) 所 示 。 其 


NE ， 其 中 


的 维 


函数 为 Sigmoid 


Ma) =m (1) 
1.2.1 输入 

本 文 从 宽度 为 5 的 上 下 文 窗口 中 抽取 特征 。 其 中 包括 一 
元 特征 和 二 元 特征 ， 如 表 1 所 示 。 已 有 的 研究 表明 ，5 字 长 


的 上 下 文 窗 


恰好 大 致 表达 了 前 后 各 一 个 词 的 上 下 文中， 从 


这 个 意义 来 讲 ，5 字 宽 的 上 
实 文本 中 绝 大 多 数 的 构 词 情形 


文 窗口 


表 1 
Table 1 


元 /二 元 特征 表 


备 了 字 和 词 的 双重 含 


[7 o 


Uni-and bi-gram feature template 


特征 类 型 


特征 


一 元 特征 
二 元 特征 


Ci-2,Ci-1,Ci,Ci+1,Ci+2 
Ci-2Ci-1,Ci-1Ci,CiCi+1,Ci+1Ci+2 


RH, 标 
标注 字 ， 
标注 字 的 后 一 个 字 ， 


代表 了 字 与 待 标注 字 的 相对 位 
Cia 表示 当前 待 标 六 
依 此 类 扒 


。Ci 表 示 当 前 待 


E 字 的 前 一 个 字 ，Cin 表示 当前 待 
«rpg «gio «e 


E. ARX En 


分 别 作 为 当前 待 标注 字 , 则 * 睦 ”对 应 的 一 元 特征 分 别 为 “ 定 ” 


e 和 » éé HE » 6 m » éé 两 » 对 
, 4 
EE” “RR” RURSUS 同 理 ， 


应 的 二 元 特征 分 别 为 “ 定 和 ”“ 和 和 
“ 谐 ”对 应 的 一 元 特征 分 别 为 “ 主 ” 


[11 和 » éé iB » 6 m » éé A » 对 
, 3 
谐 » & 谐 的 » & 的 气 d" 


应 的 二 元 特征 分 别 为 “ 主 和 ”“ 和 


201812.00101v1 


chinaXiv 


录用 定稿 李 对 红 ， 


1.2.2 


XC 
状态 


于 分 离 状 态 ， 


输出 
字符 序列 中 的 每 一 个 字符 都 有 确切 的 词 位 标注 结果 。 本 
用 “S” 和 “C” 两 种 标签 表示 当前 待 标注 字 可 能 的 标记 
。 其 中 “S”(Separation) 标 签 表示 当前 字 与 前 一 个 字 处 
即 以 当前 字符 开始 一 个 新 的 词 ， 而 “C” 


(Combination) 标 签 表示 当前 字 与 前 一 个 字 处 于 结合 状态 ， 即 


一 个 字 组 成 一 个 词 或 词 的 一 部 分 。 以 下 面 的 句子 为 例 ， 


与 前 
其 正 


A 


确 标记 序列 如 下 。 


建 -S 立 -C 稳 -S 定 -C 和 -S 睦 -C 的 -S 两 -S 岸 -C 关 -S 系 -C。-S 


作为 
1.3 


首先 
确 标 


本 文采 用 的 激活 函数 输出 值 分 布 在 (0,1) 内 。 本 文 以 0.5 


WE, 若 输 出 值 大 于 0.5 则 标记 为 “S”, 否则 标记 为 “C”。 
模型 训练 
本 文采 用 交叉 靖 作为 损失 函数 ， 如 式 (2) 所 示 。 训 练 过 程 


等 : 基于 字 和 化 的 多 模型 中 文 分 词 方法 研究 


其 中 : x,x 代表 模型 参数 ，4 表示 向 量 的 维度 ，disiw 代表 欧 
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模型 参数 之 间 夹 
型 参数 之 间 越 相近 。 


算法 执行 过 程 中 为 了 统一 采 


氏 距 离 ， 值 越 小 ， 表 示 


两 个 模型 参数 之 间距 离 越 小 ， 即 两 个 
模型 参数 越 相近 ; dist. 代表 余弦 相似 度 ， 值 越 大 ， 表 示 两 个 
越 小 ， 两 个 模型 参数 距离 越 小 ， 即 两 个 模 


距离 最 小 值 作为 类 艇 合并 


条 件 ， 在 


使 用 余弦 相似 度 作 为 距离 度量 方式 时 实际 采用 


l-dist,, ， 当 1-dist,, 值 越 小 ， 表 示 1 


f TR] TA EVER 
结构 中 两 个 类 艇 合 


个 模型 参数 越 相近 。 
不 一 致 系数 ， 该 系数 反映 了 树 型 聚 类 
时 的 距离 与 其 下 层 深 度 为 2 的 类 复合 并 


时 的 距离 不 一 致 程度 。 当 划分 到 有 明显 区 别 的 类 簇 时 ， 不 一 
致 系数 较 高 ， 反 之 亦 然 。 不 一 致 系数 计算 公式 如 式 (8) 所 示 。 


inconsistency = 


在 当前 参数 下 预测 待 标注 字 的 标记 ， 再 根据 语 料 中 其 正 
记 来 更 新 模型 参数 。 


J= 53 »,log(h(a)) * (1— y,)logd - h(a)) 


(2) 


N 


函数 
用 于 


差 反 


EL FH: 


表示 正确 标记 状态 ，h(a) 为 模型 预测 的 结果 。 
为 了 防止 过 拟 合 导 致 模型 的 泛 化 能 力 降 低 ， 本 文 在 损失 
中 增加 4 正则 项 ， 如 式 (3) 所 示 。 其 中 a 为 正则 项 系数 ， 
控制 正则 化 的 强度 。 


Arana 
7=7+= (lal sw 


(3) 
标 函 数 进行 优化 ， 采 用 误 


随机 梯度 下 降 法 对 


本 文采 | 


向 传播 的 方式 分 别 求 出 目标 函数 对 w A a 的 梯度 ， 更 新 

w 时 保证 a 不 变 ， 反 之 亦 然 。 更 新 公式 如 式 (4) (5) 所 示 。 
a=a-n2 (4) 
w=-w-n (5) 


1.4 


结构 


基于 聚 类 的 构 词 规律 分 布 结构 发 现 
在 无 监督 学 习 中 聚 类 算法 可 以 用 于 寻找 数据 内 在 的 分 布 
。 本 文 以 层次 聚 类 0 作为 后 期 模型 训练 的 前 驱 工 作 ， 用 


于 发 
律 分 
然后 
类 结 


切 分 


AS 


该 类 
在 差 


现 基 于 字 的 多 模型 分 词 方法 中 模型 参数 所 表示 的 构 词 规 
布 结构 。 层 次 聚 类 首先 将 每 个 模型 参数 作为 一 个 类 别 ， 
根据 距离 不 断 合 并 这 些 原子 类 ,形成 一 个 具有 树 型 的 聚 
构 ， 最 后 根据 事先 设 定 的 篮 间 切 分 标准 对 聚 类 结构 进行 
， 形 成 最 终 的 类 艇 。 具 体 算法 流程 如 下 : 
a) 将 每 个 模型 参数 看 做 一 类 ， 计 算 两 两 之 间 的 距离 ; 
b) 将 距离 最 小 的 两 个 类 合并 成 一 个 新 类 ; 

c) 重 新 计算 新 类 与 所 有 类 之 间 的 距离 ; 

d) 重 复 (2)3)， 生 成 一 个 具有 树 型 的 聚 类 结构 ; 

6) 根据 簇 间 切 分 标准 对 聚 类 结构 进行 切 分 ， 形 成 最 终 的 


聚 类 结束 后 ， 将 得 到 字 的 类 徐 。 字 所 处 类 簇 相同 ， 
字 的 构 词 规律 相同 或 相近 ;反之 , 则 说 明 字 的 构 词 规律 存 
异 。 


RRR 
icu 
x 


类 算法 中 通常 采用 的 距离 度量 方式 为 欧 氏 距离 、 
， 其 体 如 式 (6)(7) 所 示 。 


(6) 


(7) 


HEH, inconsistency 


表示 下 层 深度 为 2 


IS E: 


std 


否则 ， 将 两 个 类 艇 进行 切 分 。 
1.5 分 词 算法 的 性 能 分 析 


分 词 算法 性 能 的 优 劣 往往 


h-avg 


(8) 


尺 表 不 一 致 系数 ，h 代表 合并 的 两 个 类 艇 
的 距离 ,ws 表示 下 层 深 度 为 2 的 类 复合 
时 距离 标准 差 。 
不 一 致 系数 小 于 阔 值 时 ， 将 这 两 个 类 簇 合并 为 一 个 新 类 簇 ， 


时 距离 平均 值 , std 
当 两 个 类 艇 的 


过 程 为 一 次 性 行为 ， 分 词 时 
已 训练 好 的 模型 用 于 分 词 任务 。 
时 间 代 价 关 注 相 对 较 低 ， 在 实际 
词 速度 ， 以 及 模型 存储 所 占 的 存 
本 节 中 将 重点 分 析 分 词 过 程 
要 查找 模型 训练 时 生成 的 Look-up 表 , 以 及 模型 参数 wo 
需要 进行 分 词 的 字数 为 m，Look-up 表 以 及 模型 参数 的 数量 
为 n。 查 找 Look-up 表 和 模型 


通过 算法 复杂 度 来 衡量 。 其 中 
包括 时 间 复 杂 度 和 空间 复杂 度 。 机 器 学 习 中 ， 由 于 分 词 训练 


不 需要 
因此 ， 


EE 新 训练 模型 ， 


只 需 将 


对 模型 训练 所 消耗 的 


的 分 词 过 程 中 更 多 的 关注 分 
渚 空间 。 


的 时 间 复 杂 度 。 分 词 过 程 需 


已 知 


参数 的 时 间 复 杂 度 均 为 0(1)。 


分 词 时 每 对 


个 字 进 行 词 位 村 


STE 


E 时 均 需 要 遍历 整个 Look-up 


表 以 及 模型 参数 w。 因 此 ， 本 方法 中 分 词 过 程 的 时 间 复 杂 度 


为 O(mn) , 


与 基于 字 的 多 模型 分 词 方法 相 比 ， 


本 文 所 提 方 法 的 模型 


数量 远 远 小 于 基于 字 的 多 模型 分 词 方法 的 模型 数量 ， 因 此 ， 


在 时 间 复 杂 度 与 空间 复杂 度 方 
2 实验 及 结果 分 析 


2.1. 数据 和 预 处 理 


i 均 有 


piu 


准 答案 、 词 


以 及 评分 脚本 。 


E35. 


本 文 实验 所 采用 的 语 料 为 PKU 语 料 和 MSR 语 料 ， 它 们 
SIGHAN 举办 的 第 二 届 国 际 中 文 分 词 评测 Bakeoff 2005 
所 提供 的 封闭 语 料 。 其 中 包括 训练 集 、 


测试 集 、 测 试 集 的 标 


HE EHE 


信息 如 表 2 所 示 。 


表 2 PKU 语 料 和 MSR 语 料 的 详细 信息 
Table 2 Corpus details of PKU and MSR 


PKU 语 料 MSR 语 料 

词 型 5.5x10* 8.8x10* 

词 例 1.1x105 2.4x108 

字 型 5x10? 5x10? 

字 例 1.8x10* 4.1x10* 
实验 中 ， 在 当前 待 标注 字 窗 口 宽度 为 5 的 上 下 文 环境 中 


提取 特征 时 ， 当 待 标注 字 为 名 


d Ar ME A 


“end-1”“end-2”) 的 字符 进行 


[11 » 
IJH *S", 


子 开 头 或 结尾 字符 时 ， 需 要 在 
字符 的 左边 (或 右边 ) 添 加 两 个 诸如 “start-1”“start-2”( 或 


补充 ， 


补充 字符 的 标记 状态 


201812.00101v1 
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2.2 评价 方法 

中 文 分 词性 能 的 评价 指标 通常 采用 准确 率 (PO. A 
(R)、F 值 (F)、 未 登录 词 召 回 率 (Roov)、 词 表 词 召 
(Riv)。 具 体 定义 如 下 : 

_ 系统 正确 识别 的 词语 总 数 、 
-系统 识别 的 词语 总 数 “x100% 
_ 系统 正确 识别 的 词语 总 数 
测试 语 料 中 的 词语 总 数 

p-.2xPxR 

P+R 


Eh: FAEDAH REFERS RS. RERA 
率 能 够 很 好 的 反映 模型 的 泛 化 能 力 。 

.3 实验 参数 设置 

神经 网 络 模型 中 超 参数 的 选取 对 分 词性 能 起 着 显著 的 影 
响 ， 模 型 中 各 项 超 参数 设置 如 表 3 所 示 。 

表 3 神经 网 络 模型 中 超 参数 设置 

Table 3 Setting of the hyper-parameters 


Lu 


ES 
率 


n 


x100% 


LH 


D») 


参数 名 称 值 
学 习 率 eta = 0.01 
迭代 次 数 iter = 100 
损失 容忍 度 tol = 0.001 
人 ,正则 项 系数 (,=1 


和 寺 征 Embedding 维度 d=50 


文献 [1] 中 通过 大 量 实验 证 明 , 特征 Embedding 的 维度 设 
定 为 50 维 ， 既 能 保证 模型 的 训练 速度 又 可 以 保证 分 词性 能 。 
寻 此 ， 本 文 实 验 中 将 特征 Embedding 设置 成 50 维 。 此 外 ， 
为 了 防止 模型 训练 过 程 中 因 某 一 错误 导致 训练 无 法 终止 ， 本 
文 设置 两 种 结束 条 件 ， 一 种 为 迭代 次 数 ， 另 一 种 为 损失 容忍 
度 。 当 模型 训练 过 程 中 满足 两 种 情况 中 的 一 种 ， 训 练 过 程 将 
停止 。 
2.4 实验 结果 及 分 析 

为 了 验证 本 文 所 提 方 法 的 有 效 性 ， 本 文 列 举 了 如 下 几 种 
分 词 方法 进行 对 比 。 其 中 包括 CRF 分 词 方法 、 单 模型 分 词 方 
法 、 基于 字 的 多 模型 分 词 方法 以 及 神经 网 络 分 词 方法 。 其 中 ， 
单 模 型 分 词 方法 是 指针 对 训练 语 料 建立 单一 模型 参数 ， 基 于 
字 的 多 模型 分 词 方法 针对 每 个 字 建 立 单独 的 模型 参数 ，CRF 
分 词 方法 采用 3 种 策略 ， 分 别 为 2 标记 和 4 标记 并 考虑 标记 
二 元 转移 特征 ， 记 为 CRF2 和 CRF4, 以 及 采用 2 标记 方法 但 
不 考虑 标记 二 元 转移 特征 ， 记 为 CRF。 其 中 ，CRF 分 词 实验 
均 采 用 表 1 所 示 的 特征 模板 ;神经 网 络 模 型 中 特征 Embedding 
均 为 随机 初始 化 ， 进 行 了 如 下 对 比 实验 。 

2.4.1 聚 类 算法 距离 度量 方式 及 阅 值 选择 实验 

对 基于 字 的 多 模型 分 词 方法 训练 得 到 的 字模 型 进行 层次 
聚 类 ， 目 的 是 将 具有 相同 或 相近 构 词 规律 的 字 聚 合 为 一 类 ， 
形成 字 的 类 得。 因此 ， 得 到 聚 类 结果 的 好 坏 直接 影响 后 续 模 
型 的 再 训练 。 表 4、5 展示 了 使 用 不 同 距离 度量 方式 得 到 的 实 
验 结果 。 
表 4 在 PKU 语 料 中 使 用 不 同 距离 度量 方式 的 实验 结果 


Table 4 Performances of using different distance metrics in PKU test set 


FOROVEN PKU 语 料 
距离 度量 方式 
R F Roov Riv 
欧式 距离 93.8 92.6 93.2 65.8 94.2 
余弦 相似 度 94 92.9 93.5 66.4 94.5 


从 表 4. xx 5 中 可 以 看 出 ， 在 两 种 语 料 中 使 用 余弦 相似 
度 作 为 距离 度量 方式 表现 出 最 佳 的 分 词 结 果 。 人 余弦 相似 度 计 
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算 的 为 两 个 向 量 夹 角 的 大 小 ,反映 两 个 向 量 之 间 的 相似 程度 ， 
而 欧式 距离 则 是 度量 两 个 向 量 之 间 位 置 的 绝对 距离 。 本 文 的 
聚 类 对 象 为 模型 参数 ， 该 向 量 反 映 了 字 的 上 下 文 特征 对 该 字 
祭 注 状态 的 作用 程度 ， 代 表 了 该 字 的 构 词 规律 ， 使 用 余弦 相 
似 度 作 为 距离 度量 方式 更 为 合理 。 表 6 展示 了 使 用 余弦 相似 
度 作为 距离 度量 方式 下 的 聚 类 结果 。 

表 5 在 MSR 语 料 中 使 用 不 同 距离 度量 方式 的 实验 结果 


Table 5 Performances of using different distance metrics in MSR test set 


NE MSR 语 料 
距离 度量 方式 
R F Roov Riv 
欧式 距离 95.5 95.5 95.5 53.9 96.6 
余弦 相似 度 95.6 95.6 95.6 55.9 96.6 


Xx 6 与 n d «e «gi» ud 相近 的 字 


Table 6 Characters similar to ^55 573A". dum 


z 距离 度量 方式 构 词 规律 相近 的 字 
x K E. Ln. HR 
" -— My. qu. BS. M). d 
T TOUS gj. dI. H. M. 36 
内 "P 


如 表 6 所 示 ,“ 吴 ”为 姓氏 ,通过 聚 类 得 到 与 之 相近 的 几 
个 字 中 “ 赵 ”“ 彭 ”“ 徐 ”“ 卢 ”“ 蔡 ”也 作为 姓氏 ， 具 有 相同 
WENI. IER, "3m. "UU. RU DIENS AR. 
动词 、 昆 虫 名 称 ， 分 别 得 到 与 之 对 应 的 类 别 字 组 成 的 字 簇 。 
说 明 对 基于 字 的 多 模型 分 词 方法 学 习 出 的 模型 参数 进行 聚 类 
分 析 可 以 有 效 地 获得 相同 或 相近 构 词 规律 的 字 簇 。 
与 K-Means 聚 类 方法 有 所 不 同 , 层次 聚 类 无 须 事先 指出 
\ 体 的 聚 类 个 数 ， 而 是 通过 设 定 不 一 致 系数 病 值 得 到 最 优 的 
类 复 ， 因 此 ， 不 一 致 系数 阔 值 的 设 定 对 实验 结果 有 一 定 的 影 
响 。 图 3 展示 了 使 用 不 同 的 不 一 致 系数 得 到 的 实验 结果 。 


96 
e-nnan -—---- ------ -«----- -e 个 ~ m 
95 \ 
94 A 
z - id - E . -- ~Y 
= 92 M 
—*— PRU 
91 =+- MSR 
90 
0.55 06 07 08 09 1 L1 12 
TRARA 


IRI 


3 ”不一致 系数 闵 值 对 分 词性 能 影响 
Fig.3 Performance of using different inconsistentcy 

从 图 3 中 可 以 看 出 ， 在 两 种 语 料 中 ， 使 用 层次 聚 类 算法 
对 基于 字 的 多 模型 分 词 方法 训练 得 到 的 模型 参数 进行 聚 类 分 
析 ， 不 一 致 系数 阔 值 设 定 为 1 时 ， 得 到 最 优 的 聚 类 结果 ， 分 
词 效 果 最 佳 。 因 此 ， 在 接 下 来 的 分 词 实验 中 将 继续 使 用 不 一 
致 系数 阔 值 为 1 的 这 一 设置 。 
2.4.2 模型 对 比 实验 

表 7、8 给 出 了 本 文 所 提出 方法 与 单 模型 方法 、 基 于 字 的 
多 模型 方法 实验 对 比 结果 。 从 中 可 以 看 出 ， 在 两 种 语 料 上 ， 
本 文 所 提出 的 方法 表现 出 较 优 越 的 分 词性 能 。 其 中 ,在 PKU 
语 料 上 , F 值 高 于 单 模 型 1.2 个 百分点 ， 高 于 多 模型 0.1 个 百 
分 点 ; 在 MSR 语 料 上 , F 值 高 于 单 模型 4.4 个 百分点 ， 高 于 
多 模型 0.1 个 百分点 ， 表 现 出 足够 的 稳定 性 。 单 模型 方法 在 
未 登录 词 识别 方面 表现 出 明显 的 优势 ， 考 虑 上 下 文 环境 对 所 
有 字 的 全 局 综合 作用 ， 学 习 出 字 构 词 的 一 般 性 规律 ， 而 多 模 
型 针对 每 个 字 进 行 建 模 ， 学 习 出 字 构 词 的 特殊 性 规律 ， 因 T 
在 词 表 词 召回 率 方面 表现 出 强 有 力 的 优势 。 本 文 方法 通过 对 
模型 参数 聚 类 ， 将 两 种 建 模 思想 进行 结合 ， 即 学 习 出 一 般 性 
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构 词 规律 又 学 习 出 特殊 性 构 词 规律 ， 则 分 词 效 果 优 于 其 他 两 ”PKU 语 料 上 ， 本 文 的 方法 在 5 种 评价 指标 中 皆 高 于 CRF4 方 
种 方法 。 法 ,其 中 , F 值 提 升 0.4 个 百分点 ; 但 在 MSR 语 料 上 ,CRF4 
表 7 在 PKU 语 料 上 的 实验 结果 对 比 方法 分 词性 能 明显 优 于 本 文 所 提出 的 方法 ，F 值 高 出 0.8 个 
Table7 Comparison with performance on PKU corpus 百分点 。 从 MSR 语 料 实验 结果 中 可 以 看 出 ，CRF4 方法 与 本 
模型 PRUTE 文 方法 在 词 表 词 召 回 率 方面 相差 不 大 ， 但 在 未 登录 词 召 回 率 
E P R F Roov Riv E, CRF4 方法 明显 高 于 本 文 方法 ， 导 臻 CRF4 方法 的 最 终 
单 模型 93.3 91.7 92.3 71.2 93.0 结果 优 于 本 文 方法 。 分 析 原 因 ， 相 比 PKU 语 料 ，MSR 语 料 
多 模型 93.9 92.8 93.4 65.6 94.5 规模 相对 较 大 ，CRF4 方法 训练 得 更 充分 ， 对 未 登录 词 识别 
this approach 94 92.9 93.5 66.4 94.5 能 力 更 强 。 
表 8 在 MSR 语 料 上 的 实验 结果 对 比 表 11 在 PKU 语 料 上 与 CRF 实验 对 比 结果 
Table 8 Comparison with performance on MSR corpus Table 11 Comparison with results used CRF on PKU corpus 
模型 MSR 语 料 PKU 语 料 
P R F Roov Riv P R F Roov Riv 
单 模型 91.8 90.6 91.2 60 91.4 CRF 93.3 90.9 92.1 53.0 93.2 
多 模型 95.4 95.5 95.5 53.8 96.6 CRF2 93.1 91.2 92.1 55.6 93.3 
this approach 95.6 95.6 95.6 55.9 96.6 CRF4 94.0 92.2 93.1 61.2 94.1 
与 此 同时 ， 本 文 对 比 了 上 述 三 种 分 词 方法 的 模型 数量 ， This approach 940 929 935 — 664 945 
结果 展示 在 表 9 中 。 与 多 模型 相 比 ,在 PKU WHEE, 模型 数 表 12 在 MSR 语 料 上 与 CRF 实验 对 比 结 
量 由 4686 减少 到 1854, 减少 幅度 近 五 分 之 三 ; 在 MSR 语 料 Table 12 Comparison with results used CRF on MSR corpus 
上 ， 模 型 数量 由 原来 的 5151 减少 到 2299， 减 少 幅度 近 二 分 "m MSR 语 料 
之 一 。 说 明 本 文 的 实验 方法 在 提高 F 值 的 同时 ， 大 幅度 减少 P R F Roov Riv 
模型 数量 ， 节 约 了 模型 存储 成 本 。 CRF 949 95.4 95.1 51.0 96.6 
表 9 在 两 种 语 料 上 模型 数量 对 比 结果 CRF2 95.4 95.1 95.3 63.6 95.9 
Table 9 Comparison with model numbers on two corpora CRF4 96.5 96.2 96.4 70.8 96.9 
"T PKU iE Rl MSR 语 料 this approach 95.6 95.6 95.6 55.9 96.6 
F fH 模型 数 F 值 模型 数 表 13 与 前 人 工作 进行 对 比 
单 模型 92.3 1 91.2 1 Table 13 Comparision with previous models 
多 模型 93.4 4686 95.5 5151 gus PKU 语 料 MSR 语 料 
this approach 93.5 1854 95.6 2299 P R F P R F 
为 了 进一步 验 i 本 文 所 提 方法 的 有 用 性 ， 将 本 文 所 提 4 Zheng et d enc dm! gdo- MEC 88 
词 方法 与 单 模 型 分 词 方法 、 多 模型 分 词 方法 在 分 词 时 间 与 模 al(2013) 
型 存储 所 占 空间 方面 进行 对 比 。 其 中 分 词 时 间 是 指 利用 已 训 Pei et al.(2014) 93.7 93.4 93.5 94.6 94.2 94.4 
练 好 的 模型 进行 分 词 时 所 消耗 的 时 Hs 存储 空间 则 是 指 模型 Chen et ae ub GE. Wie denn. d 
存储 所 占 空间 的 大 小 。 实 验 结果 展示 在 表 10 中 。 al.(2015) 
表 10 两 种 语 料 上 分 词 时 间 与 模型 存储 空间 比较 Caietal(2016) 955 949 952 961 967 96.4 
Table 10 Comparison with word segmentation time and model storage this approach 94.0 92.9 93.5 95.6 95.6 95.6 
space on two corpora 本 文 将 实验 结果 与 相同 数据 集 上 的 前 人 工作 进行 了 对 
模型 PKU 语 料 MSR 语 料 比 。 如 2013 年 ，Zheng 等 人 08 应 用 Collobert 等 人 091 的 神经 
E F 分 词 时 间 (ms) 存 储 空间 F 分 词 时 间 (ms) 存 储 空间 ”网 络 框架 进行 分 词 ，2014 F, Pei 等 人 2 通过 利用 标签 嵌入 
单 模型 92.3  ” 536 43KB 91.2 897 4.4 KB 和 基于 张 量 的 转换 ， 提 出 了 MMTNN 的 神经 网 络 进行 分 词 ; 
多 模型 “93.4 1117 20MB 95.5 1314 22 MB 2015 *E, Chen 等 人 DB 为 了 解决 中 文 分 词 中 无 法 长 期 依赖 信 
this approach93.5 1084 79MB 95.6 1207 9.8 MB 息 的 问题 ， 提 出 了 LSTM 神经 网 络 并 用 于 分 词 ; 2016 年 ， 


Ax 10 中 可 以 看 出 , 与 多 模型 分 词 方法 相 比 , 本文 所 提 Ca 等 人 的 利用 门 控 组 合 神经 网 络 对 字符 进行 分 布 式 表示 ， 
方法 在 提高 分 词性 能 的 同时 ， 在 分 词 时 间 与 模型 存储 空间 方 并 利用 LSTM 神经 网 络 对 预测 结果 进行 打分 。 实 验 结果 对 比 
厅 也 具有 一 定 的 优势 ， 尤 其 在 模型 存储 空间 方面 ， 大 幅度 节 WK 13 所 示 。 与 Zheng 等 人 相 比 ， 本 文 所 提 方 法 在 PKU 语 
约 了 存储 成 本 , 更 有 利于 工程 中 实际 的 分 词 应 用 。 分 析 原 因 料 上 下 值 提高 1.1 个 百分点 , E MSR 语 料 上 FE 值 提高 2.3 个 
单 模型 基于 训练 语 料 建立 单一 模型 参数 ， 因 此 所 占 存 储 空间 百分点 ; 与 Pei 等 人 相 比 ， 本 文 所 提 方 法 在 PKU 语 料 上 E 值 
最 少 ， 分 词 速度 最 快 ， 而 基于 字 的 多 模型 分 词 方法 基于 每 个 ” 达到 了 相 一 致 ， 在 MSR 语 料 上 下 值 高 出 1.2 个 
字 进 行 建 模 ， 存 在 模型 的 元 余 ， 模 型 所 占 存 储 空间 较 多 ; 本 Chen 等 人 和 Cai 等 人 实验 结果 相 比 ， 本文 方法 的 分 词性 能 略 
文 所 提 方法 将 具有 相同 或 相近 构 词 规律 的 字 合并 为 字 复 ， 进 “” 显 不 足 。 
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行 模型 训练 ， 大 大 减少 了 模型 数量 ， 与 多 模型 相 比 ， 提 高 分 将 本 文 分 词 结果 与 Cai 等 人 的 分 词 结果 作 进 一 步 对 比分 
词性 能 的 同时 降低 了 模型 存储 所 占 空间 。 析 ， 发 现 本 文 所 提 方 法 在 切 分 诸如 “入 /军队 ”“ 服 /现役 ”、 


表 11、12 比较 了 该 方法 与 CRF 分 词 方法 的 实验 对 比 结 “ 战 / 风 雪 ”“ 拟 / 任 ”“ 求 /发 展 ” 等 单字 动词 时 的 切 分 效果 
R, 可 以 看 出 ，CRF 采用 4 标记 并 加 入 标记 转移 特征 的 模型 T Cai 等 人 的 分 词 方法 。 此 外 ， 对 本 实验 中 具体 的 分 词 结 
表现 出 较 好 的 分 词性 能 。 与 本 文 所 提出 的 方法 进行 对 比 ， 在 。” 末 进 行 分 析 发 现 如 表 14 中 所 列 的 切 分 错误 。 
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表 14 切 分 结果 对 比 


Table 14 Comparison with segmentation results 


正确 切 分 方式 错误 切 分 方式 
就 业 / 旺 季 就 业 旺 季 

无 /党 派 / 人 士 无 党 派 人 士 

浙江 /海盐 浙江 海盐 
世纪 /交替 世纪 将 


从 上 述 例子 中 可 以 看 出 , 切 分 结果 出 现 多 词 粘连 的 情况 。 
该 种 切 分 错误 在 文献 [23] 中 均 有 谈 到 ， 该 文献 中 通过 实验 验 
证 了 基于 字 的 分 词 方法 往往 忽略 词 所 包含 的 组 合 信息 ， 指 出 
应 用 字 词 联合 解码 进行 分 词 效 果 更 佳 。 通 过 分 析 本 文 切 分 错 
误 结果 ， 同 样 验证 了 上 述 结论 ， 而 本 文 所 提出 的 分 词 方法 ， 

恰好 缺少 词 信息 进行 分 词 指 导 学 习 ， 因 此 出 现 多 词 粘 连 的 情 

况 ， 影 响 了 最 终 的 分 词性 能 。 对 比 Cai 等 人 的 分 词 方法 ， 通 
过 门 控 组 合 神经 网 络 对 输入 的 字符 序列 进行 候选 词 分 布 式 表 
示 ， 很 好 地 引入 了 词 信息 ， 并 用 LSTM 神经 网 络 对 所 有 切 分 
结果 进行 打分 , 取 打分 最 高 的 切 分 组 合作 为 最 终 的 分 词 结 果 ， 
则 最 终 的 分 词 效果 优 于 本 文 实验 结果 。 在 今后 的 实验 中 ， 本 
文 将 借鉴 Cai 等 人 的 分 词 方法 ， 引 入 词 信 息 进行 指导 学 习 。 
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本 文 提出 了 一 种 基于 字 艇 的 多 模型 中 文 分 词 方法 ， 该 广 
法 可 以 看 做 单 模型 与 基于 字 的 多 模型 建 模 思想 的 结合 ， 很 好 
地 发 挥 了 单 模型 分 词 方法 发 现 未 登录 的 作用 以 及 基于 字 的 多 
模型 分 词 方法 切 分 词 表 词 的 作用 ， 学 习 出 字 构 词 的 一 般 性 与 
特殊 性 构 词 规律 。 实 验 结果 表明 ， 与 基于 字 的 多 模型 分 词 广 
该 方法 在 小 幅度 提升 分 词性 能 的 同时 ， 有 效 减 少 了 
模型 数量 ， 降 低 了 模型 存储 成 本 并 且 提升 了 分 词 速度 。 
通过 实验 部 分 分 析 ， 本 文 的 分 词 方法 并 没有 引入 词 的 信 
息 对 分 词 过 程 进行 指导 学 习 ， 影 响 了 最 终 的 分 词性 能 ， 有 一 
定 的 局 限 性 。 今 后 的 工作 中 ， 可 以 尝试 加 入 词 的 信息 ， 提 高 
分 词 质量 ， 另 一 方面 ， 本 文 的 方法 是 利用 聚 类 发 现 字 构 词 之 
间 分 布 结构 规律 ， 聚 类 的 好 坏 直接 影响 分 词 的 效果 ， 今 后 的 
工作 中 可 以 在 算法 层面 做 进一步 的 尝试 ， 利 用 多 任务 学 习 算 
法 进行 分 词 实验 P429。 
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